智能论文笔记

When are Deep Networks really better than Decision Forests at small sample sizes, and how?

Haoyin Xu , Kaleab A. Kinfu , Will LeVine , Sambit Panda , Jayanta Dey , Michael Ainsworth , Yu-Chung Peng , Madi Kusmanov , Florian Engert , Christopher M. White

分类：机器学习 | 人工智能 | (统计)机器学习

2021-08-31

深度网络和决策林（如随机森林和渐变升级树）分别是用于结构化和表格数据的主要机器学习方法。许多论文在一个或两个不同的域（例如，在100个不同的表格数据设置上）经验上比较了大量分类器（例如，在100个不同的表格数据设置）上。然而，使用最具当代最佳实践的仔细概念和经验比较这两种策略尚未进行。概念上，我们说明两者都可以盈利地被视为“分区和投票”方案。具体地，他们俩学习的表示空间是将特征空间分区到凸多台的联合中。对于推理，每个都决定从激活节点的投票。该配方允许统一对这些方法之间关系的基本理解。凭经验，我们对数百个表格数据设置以及多个视觉和听觉设置进行比较这两种策略。我们的重点是在大多数10,000个样本的数据集上，它代表了大部分科学和生物医学数据集。一般而言，我们发现森林在表格和结构化数据（视觉和试镜）上以小样本尺寸的表现，而深网络在具有较大样本尺寸的结构化数据上更好地进行。这表明可以通过进一步结合森林和网络的进一步结合来实现两种情况的进一步提升。我们将继续在未来几个月内修改此技术报告，并更新结果。

translated by 谷歌翻译